OpenAI 프롬프트 캐싱

출처: https://openai.com/index/api-prompt-caching/

Prompt Caching in the API | OpenAI

October 1, 2024

많은 개발자가 코드베이스를 편집하거나 챗봇과 여러 차례에 걸쳐 긴 대화를 하는 등 AI 애플리케이션을 구축할 때 여러 API 호출에서 동일한 컨텍스트를 반복적으로 사용합니다. 오늘 소개하는 프롬프트 캐싱을 통해 개발자는 비용과 지연 시간을 줄일 수 있습니다. 개발자는 최근에 본 입력 토큰을 재사용함으로써 50% 할인된 비용과 더 빠른 프롬프트 처리 시간을 얻을 수 있습니다.

프롬프트 캐싱 사용 가능 여부 및 가격

오늘부터 프롬프트 캐싱은 최신 버전의 GPT-4o, GPT-4o mini, o1-preview 및 o1-mini와 해당 모델의 미세 조정된 버전에 자동으로 적용됩니다. 캐시된 프롬프트는 캐시되지 않은 프롬프트에 비해 할인된 가격으로 제공됩니다.

가격 개요는 다음과 같습니다:

	Uncached Input Tokens	Cached Input Tokens	Output Tokens
GPT-4o
gpt-4o-2024-08-06	$2.50	$1.25	$10.00
GPT-4o fine-tuning	$3.75	$1.875	$15.00
GPT-4o mini
gpt-4o-mini-2024-07-18	$0.15	$0.075	$0.60
GPT-4o mini fine-tuning	$0.30	$0.15	$1.20
o1
o1-preview	$15.00	$7.50	$60.00
o1 mini	$3.00	$1.50	$12.00

캐시 사용량 모니터링

지원되는 모델에 대한 API 호출은 1,024토큰보다 긴 프롬프트에 대해 자동으로 프롬프트 캐싱의 혜택을 받습니다. API는 1,024토큰부터 시작하여 128토큰 단위로 증가하여 이전에 계산된 프롬프트의 가장 긴 접두사를 캐싱합니다. 일반적인 접두사가 포함된 프롬프트를 재사용하는 경우, API 연동을 변경할 필요 없이 자동으로 프롬프트 캐싱 할인이 적용됩니다.

프롬프트 캐싱을 사용하는 요청에는 API 응답의 '사용' 필드 내에 'cached_tokens' 값이 있습니다:

usage: {
  total_tokens: 2306,
  prompt_tokens: 2006,
  completion_tokens: 300,
  
  prompt_tokens_details: {
    cached_tokens: 1920,
    audio_tokens: 0,
  },
  completion_tokens_details: {
    reasoning_tokens: 0,
    audio_tokens: 0,
  }
}

캐시는 일반적으로 5~10분 동안 사용하지 않으면 삭제되며, 캐시의 마지막 사용 후 항상 1시간 이내에 삭제됩니다. 모든 API 서비스와 마찬가지로 프롬프트 캐싱은 기업 개인정보 보호 약정의 적용을 받습니다. 프롬프트 캐시는 조직 간에 공유되지 않습니다.

프롬프트 캐싱은 개발자가 성능, 비용, 지연 시간의 균형을 유지하면서 프로덕션 환경에서 애플리케이션을 확장할 수 있는 다양한 도구 중 하나입니다. 자세한 내용은 프롬프트 캐싱 문서를 참조하세요.